상관 분석(Correlation Analysis)
상관 분석은 두 변수 간의 선형적 관계가 존재하는지 알아보는 분석 방법으로, 상관계수를 활용한다.
+1에 가까우면 강한 양의 상관관계를 -1에 가까우면 강한 음의 상관관계를 가진다.
0에 가까울 수록 상관관계가 없음
상관관계가 있다는 것이 변수 사이에 인과관계가 있다는 의미는 아니다.
산점도 행렬(Scatter Plot Matrix)
산점도와 상관계수를 하나의 산점도 행렬을 통해 시각화 할 수 있다.
상관 관계 귀무가설(H0)상관 분석의 귀무가설은 두 변수는 아무 상관관계가 없다는 점이다.
p-value가 유의수준보다 작아서 귀무가설을 기각할 수 있다면, 두 변수 간에 유의한 상관관계가 있다고 말할 수 있다.
 1. 피어슨 상관 분석(선형적 상관관계)
두 변수가 모두 정규분포를 따른다는 가정이 필요하다.
> X<-c(1, 2, 3, 4, 5)
> Y<-c(3, 6, 4, 9 ,8)
> cor(X, Y, method='pearson')
[1] 0.8062258
2. 스피어만 상관 분석(비선형적 상관관계)
두 변수들이 서열척도일 때 사용하는 상관계수
스피어만 상관계수는 비모수적 방법으로 관측값의 순위에 대하여 상관관계를 계산하는 방법이다.
> X<-c(1, 2, 3, 4, 5)
> Y<-c(3, 6, 4, 9 ,8)
> cor(X, Y, method='spearman')
[1] 0.8
correlation analysis test
 
 
 
 
  | time | 
  학습시간(시간) | 
  8 | 
  6 | 
  7 | 
  3 | 
  2 | 
  4 | 
  2 | 
  7 | 
  2 | 
  3 | 
 
 
  | score | 
  점수(점) | 
  33 | 
  22 | 
  18 | 
  6 | 
  23 | 
  10 | 
  9 | 
  30 | 
  11 | 
  13 | 
 
 > time<-c(8, 6, 7, 3, 2, 4, 2, 7, 2, 3)
> score<-c(33, 22, 18, 6, 23, 10, 9, 30, 11, 13)
> cor.test(time, score)
	Pearson's product-moment correlation
data:  time and score
t = 3.0733, df = 8, p-value = 0.01527
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1978427 0.9331309
sample estimates:
      cor 
0.7358112 
p-value가 유의수준 0.05보다 작으므로 귀무가설을 기가한다.
두 변수의 상관계수 추정치(cor)는 0.7358112
두 변수 간(time, score) 상관관계가 있다고 통계적으로 말할 수 있다.